智能论文笔记

AFT-VO: Asynchronous Fusion Transformers for Multi-View Visual Odometry Estimation

Nimet Kaygusuz , Oscar Mendez , Richard Bowden

分类：计算机视觉 | 机器人

2022-06-26

运动估计方法通常采用传感器融合技术（例如Kalman滤波器）来处理单个传感器故障。最近，已经提出了基于深度学习的融合方法，提高了性能并需要更少的模型特定实现。但是，当前的深融合方法通常认为传感器是同步的，这并不总是实用的，尤其是对于低成本硬件。为了解决这一局限性，在这项工作中，我们提出了AFT-VO，这是一种新型的基于变压器的传感器融合体系结构，以估算来自多个传感器的VO。我们的框架结合了异步多视觉摄像机的预测，并说明了来自不同来源的测量值的时间差异。我们的方法首先采用混合密度网络（MDN）来估计系统中每个相机的6-DOF姿势的概率分布。然后引入了一个新型的基于变压器的融合模块AFT-VO，该模块结合了这些异步姿势估计以及它们的信心。更具体地说，我们引入了离散器和源编码技术，该技术使多源异步信号的融合。我们在流行的Nuscenes和Kitti数据集上评估了我们的方法。我们的实验表明，用于VO估计的多视图融合提供了强大而准确的轨迹，在挑战性的天气和照明条件下都超过了艺术的表现。

translated by 谷歌翻译

视觉内径（VO）估计是车辆状态估计和自主驾驶的重要信息来源。最近，基于深度学习的方法已经开始出现在文献中。但是，在驾驶的背景下，由于环境因素，摄像机放置等因素而导致的图像质量降低，单个传感器的方法通常容易出现故障。要解决这个问题，我们提出了一个深度传感器融合框架，其使用两者估计车辆运动来自多个板上摄像头的姿势和不确定性估计。我们使用混合CNN - RNN模型从一组连续图像中提取短时间形特征表示。然后，我们利用混合密度网络（MDN）来估计作为分布的混合和融合模块的6-DOF姿势，以使用来自多摄像机的MDN输出来估计最终姿势。我们在公开的大规模自动车辆数据集，Nuscenes上评估我们的方法。结果表明，与基于相机的估计相比，所提出的融合方法超越了最先进的，并提供了坚固的估计和准确的轨迹。

translated by 谷歌翻译

可视化内径（VO）用于许多应用，包括机器人和自主系统。但是，基于特征匹配的传统方法是计算昂贵的，而不是直接解决故障情况，而是依赖于启发式方法来检测失败。在这项工作中，我们提出了一种基于深度学习的VO模型，以有效地估计6 DOF姿势，以及这些估计的置信模型。我们利用CNN - RNN混合模型从图像序列学习特征表示。然后，我们采用混合密度网络（MDN），其估计相机运动作为高斯的混合，基于提取的时空表示。我们的模型使用姿势标签作为监督源，但以无人监督的方式源性不确定性。我们评估基提和NUSCENES数据集的提出模型，并报告广泛的定量和定性结果，以分析姿势和不确定性估计的性能。我们的实验表明，除了使用预测的姿态不确定性检测故障情况之外，该建议的模型还超过了最先进的性能。

translated by 谷歌翻译